Теория вероятностей и статистика: наука о неопределённости: статистика как случайные величины: выборочное распределение

В статистическом выводе мы переходим от наблюдения отдельных данных к анализу **статистики** — функционального отображения $Y = h(X_1, X_2, \dots, X_n)$ выборочной последовательности. Поскольку исходная выборка состоит из случайных величин, сама статистика является случайной величиной, а её закон вероятности называется **выборочным распределением**.

Статистика как отображение

Статистика формально определяется как функция $h: \mathbb{R}^n \to \mathbb{R}$. Мы определяем вероятность того, что статистика попадает в множество $B$, с использованием прообраза:

$$h^{-1} B = \{(x_1, x_2, \dots, x_n) : h(x_1, x_2, \dots, x_n) \in B\}$$

Основа для независимых и одинаково распределённых (i.i.d.) переменных

Для выборки из независимых и одинаково распределённых (i.i.d.) случайных величин совместная вероятность конкретной точки выборки $(x_1, \dots, x_n)$ равна произведению их маргинальных вероятностей: $p(x_1)p(x_2)\dots p(x_n)$. Это произведение служит весом для каждой точки при вычислении общей вероятности того, что статистика примет конкретное значение.

Пример 4.1.1: Геометрическое среднее

Рассмотрим дискретную популяцию, где $p_X(1) = 1/2$, $p_X(2) = 1/4$, $p_X(3) = 1/4$. Мы выбираем выборку объёма $n=2$ ($X_1, X_2$) и определяем нашу статистику как геометрическое среднее: $Y_2 = (X_1 X_2)^{1/2}$.

Чтобы найти распределение $Y_2$, перечислим все 9 возможных пар $(X_1, X_2)$, вычислим их совместную вероятность и соответствующее значение $Y_2$:

Пара $(x_1, x_2)$	Вероятность $P(x_1)P(x_2)$	$Y = \sqrt{x_1 x_2}$
(1, 1)	1/4	1.000
(1, 2), (2, 1)	1/8 + 1/8 = 1/4	1.414
(1, 3), (3, 1)	1/8 + 1/8 = 1/4	1.732
(2, 2)	1/16	2.000
(2, 3), (3, 2)	1/16 + 1/16 = 1/8	2.449
(3, 3)	1/16	3.000

Точные и асимптотические распределения

Прежде чем переходить к предельным теоремам, таким как центральная предельная теорема (CLT), необходимо освоить «точное распределение». Это подразумевает вычисление конкретной функции массы или плотности вероятности для статистики при малом конечном $n$. Когда аналитическая форма становится непригодной, мы используем численные моделирования, такие как **приближения Монте-Карло**.

🎯 Основной принцип

Выборочное распределение — это распределение случайной величины, соответствующей функции некоторой последовательности независимых и одинаково распределённых величин. Оно служит мостом между первичными данными и научным выводом.

ВОПРОС 1

Предположим, что $X_1, X_2, X_3$ — независимые и одинаково распределённые случайные величины из примера 4.1.1. Какова вероятность того, что геометрическое среднее $Y_3 = (X_1 X_2 X_3)^{1/3}$ равно 1?

$1/2$

$1/4$

$1/8$

$1/27$

ВОПРОС 2

Честный шестигранный кубик бросают $n = 2$ раза независимо. Какова вероятность того, что выборочное среднее точно равно 1.5?

$1/36$

$2/36$

$3/36$

$1/6$

ВОПРОС 3

В урне пропорция фишек с меткой 0 составляет $p$, а с меткой 1 — $1-p$. Выбирают выборку объёмом $n=2$ с возвращением. Какова вероятность того, что выборочное среднее равно 0.5?

$p^2$

$(1-p)^2$

$2p(1-p)$

$p(1-p)$

ВОПРОС 4

Какое математическое понятие представляет собой множество всех точек выборки $(x_1, \dots, x_n)$, которые приводят к тому, что статистика $h$ попадает в конкретный интервал $B$?

Общая функция плотности

Прообраз $h^{-1}B$

Функция моментов

Отображение ожидаемого значения

ВОПРОС 5

При приближённом вычислении интеграла $\int_{-\infty}^{\infty} \cos^2(x)e^{-x^2/2} dx$ методом Монте-Карло, из какой распределения следует выбирать выборку, чтобы упростить вычисления?

Равномерное(0, 1)

Пуассон(1)

Стандартное нормальное $N(0, 1)$

Экспоненциальное(1)